ACL 2023 Findings | 概率句法角度的Transformer诠释
本文介绍了上海科技大学屠可伟课题组的一项研究,提出了一个与 Transformer 结构极为类似的概率句法模型。该论文已被 ACL 2023 接收为 Findings 长文。
论文链接:
代码链接:
曾几何时,句法分析是自然语言处理的核心步骤。但过去十年间,基于经验设计的神经网络席卷了 NLP 领域,成为了主流的方法手段 [1],而句法结构在这些方法中逐渐被淡化和忽视。Transformer 就是其中的一个重要代表:尽管有研究表明 Transformer 具有一定的编码句法结构的能力,但其本质上仍是一个依据经验设计的黑盒模型,这些能力从何而来,我们不得而知。
为此,世界各地的研究人员正试图揭开 Transformer 工作原理的面纱。例如,马毅教授团队近期指出 Transformer 是表示压缩与稀疏化的迭代过程 [2],田渊栋博士则透彻分析了单层 Transformer 的原理 [3]。
田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
我们最新发表的工作尝试从一个全新的角度来思考这个问题。我们不再关注 Transformer 中的每个细节,而是从理论出发,构建了一个传统的概率模型来建模句子中的依存语法结构,并推导了该模型的近似推理算法。通过分析计算图,我们发现该模型与 Transformer 存在着惊人的相似之处。同时,在各种中小规模数据集上,我们的模型与 Transformer 性能不相上下。
Probabilistic Transformer
2.1 依存关系与注意力机制
直观地看,依存关系与 Transformer 中的注意力机制颇为类似。依存关系中,句子的每个单词都会有一个依存头;而注意力中,每个单词会在句中所有单词上有一个注意力分布。同时,Transformer 将相同的计算模块堆叠多层的方式与迭代式的近似推理算法颇为类似。这些相似性启发我们从近似依存句法分析的角度重构出 Transformer。
2.2 用条件随机场建模依存关系
对一段给定的文本,我们构造如下的条件随机场。每个单词有一个标签(Label)和依存头(Dependency Head):标签表示了这个单词所携带的句法和语义类别信息,依存头则表示了这个单词在依存图中的父节点。它们都作为变量存在,如下图所示:
I love NLP
。如果我们令标签表示单词的词性,那么有 。如果I
的依存头为love
,那么 。在实际运用过程中,我们的模型并不规定单词标签的含义,而是将此作为隐变量让模型来学习。事实上,我们正是希望通过单词的标签,来获得单词上下文相关的向量表示。
如果你不熟悉条件随机场,对变分推断也不了解,没有关系。由于采用梯度下降来学习模型中的参数,我们可以像 Transformer 一样绘制出我们模型近似推理的计算图。有趣的事情就在于这里:建模依存关系的概率模型的计算图,与 Transformer 竟然极为类似!
如果考虑整个更新推理过程,那么 MFVI 的迭代方式与 Transformer 的多层叠加方式也非常类似。相比之下,我们可以观察到一些有趣的不同之处:
我们的模型不包含前馈神经网络。我们也设计过含有类似前馈神经网络结构的概率模型,但实验发现性能并没有得到显著的提升。 我们的模型不包含残差连接和层归一化。但计算图中我们可以发现类似的结构:在每一次迭代的结果中,我们会加上初始分布(类似于词嵌入)。Softmax 则替代了层归一化被置于多通道推理之前,这似乎与 Transformer 中的 pre-LN 变种类似。 我们的模型在每一层都共享所有的参数。这与 Universal Transformer 和 ALBERT 的思路一致。
与Transformer不相上下的性能
还能做些什么
尽管我们的模型表现未能超越 Transformer,但其本身是基于依存句法分析和统计学习的理论构建的,这可以为我们带来许多新的启发,将句法分析和统计学习中成熟的技术类比运用到最先进的神经网络模型中。例如,阻尼(damping)在条件随机场近似推理中是一种常用而有效的技术手段,我们发现如果对依存头变量使用适当的阻尼,其计算图恰好对应于注意力矩阵上的残差连接,即 RealFormer 中使用的方法。
传统统计学习与现代神经网络方法之间可能存在着极为紧密的联系,而我们有机会通过借鉴这些成熟的传统方法来快速发展现有的方法。
-写在最后-
我是本文的作者吴昊一,很高兴能在屠可伟教授的指导下完成这份工作。在开展这个课题的过程中,屠老师悉心指导,讨论课题时往往不知不觉过去了几个小时,非常开心。屠老师平易近人,为人处世以身作则,在屠老师的课题组,学习的不仅是科研的方法,更是做人的道理。特别是在 ACL 会议中与其他同学交流之后,我为自己当时选择屠老师作为导师而感到非常庆幸。
上海科技大学信息学院屠可伟教授课题组主要从事自然语言处理、机器学习等人工智能领域的研究,侧重于研究语言结构的表示、推理、学习以及相关应用。课题组每年都在各大顶会发表很多论文,例如在 ACL-2023 发表了 6 篇主会论文和 2 篇 Findings 论文,其中一篇还获得了杰出论文奖。
课题组招收硕士研究生(推免生)、博士生(名额待定)、博士后和研究助理,如果你对我们的工作感兴趣,希望在这里开展研究,不妨给屠老师发一封电子邮件。
更多信息请访问屠可伟老师主页:
http://faculty.sist.shanghaitech.edu.cn/faculty/tukw/
参考文献
[1] Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. In Y. Bengio & Y. LeCun (Eds.), 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings. http://arxiv.org/abs/1409.0473
[2] Yu, Y., Buchanan, S., Pai, D., Chu, T., Wu, Z., Tong, S., Haeffele, B. D., & Ma, Y. (2023). White-Box Transformers via Sparse Rate Reduction. ArXiv Preprint ArXiv:2306.01129.
[3] Tian, Y., Wang, Y., Chen, B., & Du, S. (2023). Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer. arXiv preprint arXiv:2305.16380.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧